In RGB-D based 6D pose estimation, direct regression approaches can directly predict the 3D rotation and translation from RGB-D data, allowing for quick deployment and efficient inference. However, directly regressing the absolute translation of the pose suffers from diverse object translation distribution between the training and testing datasets, which is usually caused by the diversity of pose distribution of objects in 3D physical space. To this end, we generalize the pin-hole camera projection model to a residual-based projection model and propose the projective residual regression (Res6D) mechanism. Given a reference point for each object in an RGB-D image, Res6D not only reduces the distribution gap and shrinks the regression target to a small range by regressing the residual between the target and the reference point, but also aligns its output residual and its input to follow the projection equation between the 2D plane and 3D space. By plugging Res6D into the latest direct regression methods, we achieve state-of-the-art overall results on datasets including Occlusion LineMOD (ADD(S): 79.7%), LineMOD (ADD(S): 99.5%), and YCB-Video datasets (AUC of ADD(S): 95.4%).
translated by 谷歌翻译
在体育视频中跟踪多个运动员是一项非常具有挑战性的多对象跟踪(MOT)任务,因为运动员通常具有相同的外观并且彼此密切相同,因此使常见的遮挡问题成为一个令人讨厌的重复检测。在本文中,重复检测是新的,精确地定义为闭塞,通过一帧在多个检测箱上在同一运动员上误会。为了解决这个问题,我们精心设计了一种基于变压器的新型副本检测器(d $^3 $),用于培训,以及一种特定的算法拉力赛 - 亨加利亚(RH)进行匹配。一旦发生重复检测,D $^3 $立即通过生成增强框损耗来修改过程。由团队运动替代规则触发的RH极为适合体育视频。此外,为了补充没有拍摄更改的跟踪数据集,我们根据名为RallyTrack的体育视频发布了一个新数据集。在RallyTrack上进行了广泛的实验表明,将D $^3 $和RH结合起来,可以通过MOTA中的9.2和4.5在Hota中大幅提高跟踪性能。同时,关于Mot系列和Dancetrack的实验发现,D $^3 $可以在训练过程中加速融合,尤其是在MOT17上节省多达80%的原始培训时间。最后,我们的模型只能通过排球视频进行培训,可以直接应用于MAT的篮球和足球视频,该视频显示了我们方法的优先级。我们的数据集可从https://github.com/heruihr/rallytrack获得。
translated by 谷歌翻译
如今,基础模型已成为人工智能中的基本基础设施之一,铺平了通往通用情报的方式。但是,现实提出了两个紧急挑战:现有的基础模型由英语社区主导;用户通常会获得有限的资源,因此不能总是使用基础模型。为了支持中文社区的发展,我们介绍了一个名为Fengshenbang的开源项目,该项目由认知计算与自然语言研究中心(CCNL)领导。我们的项目具有全面的功能,包括大型预培训模型,用户友好的API,基准,数据集等。我们将所有这些都包装在三个子项目中:风水次模型,风水框架和狂热基准。 Fengshenbang的开源路线图旨在重新评估中国预培训的大型大型模型的开源社区,促使整个中国大型模型社区的发展。我们还希望构建一个以用户为中心的开源生态系统,以允许个人访问所需的模型以匹配其计算资源。此外,我们邀请公司,大学和研究机构与我们合作建立大型开源模型的生态系统。我们希望这个项目将成为中国认知情报的基础。
translated by 谷歌翻译
训练键形生成(KPG)模型需要大量注释的数据,这些数据可能非常昂贵,并且通常仅限于特定域。在这项研究中,我们首先证明了不同领域之间的巨大分布变化极大地阻碍了KPG模型的可传递性。然后,我们提出了一条三阶段的管道,该管道逐渐以数据效率的方式指导KPG模型从一般句法特征到与域相关的语义的学习重点。借助域将军短语预训练,我们使用通用短语注释进行预训练序列到序列模型,这些模型在网络上广泛使用,这使模型能够在广泛的域中生成短语。然后将所得模型应用于传输标签阶段,以产生域特异性伪键形,这有助于将模型适应新域。最后,我们使用有限的数据将模型微调,以完全适应目标域。我们的实验结果表明,所提出的过程可以在新领域中产生高质量的钥匙串,并在适应有限的域注释数据后进行一致的改进。
translated by 谷歌翻译
对于人工智能系统来说,在低计算成本的情况下实现准确的视频识别是一项挑战。基于自适应推理的有效视频识别方法通常会预览视频,并专注于显着零件以降低计算成本。大多数现有作品都集中在复杂的网络学习,并具有基于视频分类的目标。以所有框架为正样本,其中很少有人关注积极样本(显着框架)和负面样本(非空位框架)之间的歧视。为了填补这一空白,在本文中,我们提出了一个新型的非高度抑制网络(NSNET),该网络有效地抑制了非征力框架的响应。具体而言,在框架级别上,可以生成可以区分显着框架和非空位框架的有效伪标签,以指导框架显着性学习。在视频层面上,在双重视频级别的监督下都学会了一个时间关注模块,这些模块既是对突出表示和非偏心表示形式。从两个两个级别的显着度测量都合并以利用多粒性互补信息。在四个众所周知的基准上进行的广泛实验验证了我们的NSNET不仅实现了最先进的准确性效率折衷,而且比最先进的推理速度要快得多(2.4〜4.3倍) - 艺术方法。我们的项目页面位于https://lawrencexia2008.github.io/projects/nsnet。
translated by 谷歌翻译
基于图形卷积的方法已成功应用于同质图上的表示学习,其中具有相同标签或相似属性的节点往往相互连接。由于这些方法使用的图形卷积网络(GCN)的同义假设,它们不适合异质图,其中具有不同标记或不同属性的节点往往相邻。几种方法试图解决这个异质问题,但是它们没有改变GCN的基本聚合机制,因为它们依靠求和操作员来汇总邻近节点的信息,这隐含地遵守同质假设。在这里,我们介绍了一种新颖的聚合机制,并开发了基于随机步行聚集的图形神经网络(称为RAW-GNN)方法。提出的方法将随机步行策略与图神经网络集成在一起。新方法利用广度优先的随机步行搜索来捕获同质信息和深度优先搜索以收集异性信息。它用基于路径的社区取代了传统社区,并基于经常性神经网络引入了新的基于路径的聚合器。这些设计使RAW-GNN适用于同质图和异质图。广泛的实验结果表明,新方法在各种同质图和异质图上实现了最先进的性能。
translated by 谷歌翻译
通用事件边界检测(GEBD)任务旨在检测通用的,无分类的事件边界,将整个视频分为块。在本文中,我们应用蒙版的自动编码器来提高GEBD任务上的算法性能。我们的方法主要采用了对GEBD任务进行微调的蒙面自动编码器的合奏,并将其作为其他基本模型的自我监督的学习者。此外,我们还使用半监督的伪标签方法来充分利用训练时丰富的未标记动力学-400数据。此外,我们提出了一种软标签方法,以部分平衡正面和负样本,并减轻此任务中模棱两可的标记问题。最后,实施了一个棘手的分割对准策略,以完善我们的模型预测到更准确的位置的边界。通过我们的方法,我们在动力学-GEBD测试集上的F1得分上获得了85.94%的成绩,与2021 Kinetics-GEBD挑战的获胜者相比,F1得分提高了2.31%。我们的代码可从https://github.com/contentandmaterialportortait/mae-gebd获得。
translated by 谷歌翻译
深神经网络(DNN)是医疗应用中有前途的工具。但是,由于通信的能源成本很高,因此在电池供电设备上实施复杂的DNN是具有挑战性的。在这项工作中,开发了卷积神经网络模型,用于检测心电图(ECG)信号的房颤。该模型表明,尽管接受了有限的可变长度输入数据训练,但表现出了高性能。重量修剪和对数定量合并以引入稀疏性并降低模型大小,可以利用这些稀疏性,以减少数据移动和降低计算复杂性。最终模型达到了91.1%的模型压缩率,同时保持高模型精度为91.7%,损失小于1%。
translated by 谷歌翻译
由于传统经验风险最小化(ERM)的概括性差,因此在分布转移的情况下,分布(OOD)概括算法受到越来越多的关注。但是,OOD的概括算法忽略了训练数据质量的巨大差异,这极大地损害了这些方法的准确性。在本文中,我们从理论上揭示了训练数据质量和算法性能之间的关系,并分析了Lipschitz正则不变风险最小化的最佳正则化方案。提出了一种基于理论结果提出的新算法,以减轻样品水平和域水平上低质量数据的影响。关于回归和分类基准的实验验证了我们方法具有统计学意义的有效性。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译